Digital Garden · 8. Future of PKM (1)

Overview

AI4PKM에서 인간의 역할은 PKM 관리자로서 시스템의 지속적인 개선을 이끄는 것이다. 이 과정은 세 가지 핵심 활동으로 구성된다: 먼저 시스템 운영 과정에서 발생하는 문제점들을 체계적으로 식별하고, 이에 대한 실질적인 해결책을 고안한 다음, 실제로 적용하여 그 변화를 관찰하고 평가한다. 이러한 순환적 개선 과정이 Self-Improving PKM의 출발점이 된다.

From Personal Experience: "Manual maintenance of PKM is effortful" - The need for self-improving systems becomes clear when maintaining PKM requires significant energy. "아직도 PKM 시스템을 메인테인 하는데 굉장히 많은 에너지가 들어간다는 생각을 한다. 일을 줄이려면 어떻게 해야 될까?" (Journal/2025-09-14)

그렇다면 AI는 이 과정에서 어떤 도움을 줄 수 있을까? 핵심은 역할 분담에 있다. 인간은 평가 기준과 프로세스를 정의하는 전략적 역할을 담당하고, AI는 그 기준에 따라 실제 평가를 수행하며 시스템을 개선하는 실행적 역할을 맡는다. 이러한 협업 구조에서 인간의 판단력과 AI의 처리 능력이 결합되어 지속적이고 효율적인 시스템 개선이 가능해진다.

Evaluation Philosophy: "Like software engineering, success with AI hinges on how fast you can iterate. You must have processes and tools for: 1. Evaluating quality (ex: tests). 2. Debugging issues (ex: logging & inspecting data). 3. Changing the behavior or the system" (Ingest/Articles/2025-02-07 Your AI Product Needs Evals)

Self-Improving PKM Framework

수동 PKM 유지보수에서 자율 시스템 개선으로의 여정은 평가, 자동화, 메타 학습 능력을 연결하는 체계적 접근법을 따른다. 앞서 제시한 문제의식—"Manual maintenance of PKM is effortful"—을 해결하기 위해서는 단순한 자동화를 넘어 시스템 스스로 학습하고 개선하는 능력이 필요하다. 이는 인간이 PKM 관리자에서 전략적 조언자로 역할을 전환할 수 있게 하는 핵심 기반이 된다.

Core Architecture: Meta-Agent Vision

Meta-Agent Development Need: "에이전트가 에이전트를 평가하고 개선하는 메타 시스템 구축 필요성" - Moving beyond manual system maintenance to AI managing AI (Topics/Technology/PKM)

Stage 1: Foundation (Current)

현재 단계에서는 PKM 시스템의 자기 개선을 위한 기본 토대를 구축하고 있다. 표준화된 평가 프레임워크를 통해 시스템 성능을 측정하고, 사용자 피드백을 체계적으로 수집하는 시스템을 구축했다. 또한 반복적인 작업들을 자동화하는 기본적인 워크플로우를 도입하여 수동 유지보수 부담을 줄이고 있다. 이러한 기반 요소들이 갖춰져야 다음 단계의 고도화된 자동화가 가능해진다.

Stage 2: Advanced (In Development)

개발 중인 고급 단계에서는 여러 AI 에이전트를 비교 평가하여 최적의 에이전트를 선택하고 조합하는 시스템을 구축하고 있다. 단순한 성능 측정을 넘어서 상황에 맞는 개선 제안을 자동으로 생성하는 기능을 개발 중이다. 워크플로우 자체가 사용 패턴과 성과 데이터를 분석하여 스스로 최적화되는 메커니즘도 실험하고 있다. 이는 PKM 관리자의 개입 없이도 시스템이 점진적으로 개선되는 토대를 마련한다.

Stage 3: Experimental (Future Vision)

실험적 미래 단계에서는 완전한 메타 에이전트 시스템을 목표로 한다. AI가 AI를 평가하고 개선하는 완전 자율 시스템으로, 프롬프트와 워크플로우를 스스로 수정하며 진화한다. 품질 보증까지 자율적으로 수행하여 사용자의 개입 없이도 지속적인 품질 향상을 보장한다. 궁극적으로는 사용자가 전략적 방향성만 제시하면 시스템이 알아서 최적화되는 완전 자율 PKM을 실현하고자 한다.

Publish/AI for PKM/_files_/self-improving PKM.png

Self-Improving PKM Pilots

앞서 제시한 3단계 아키텍처를 실현하기 위해 현재 다양한 파일럿 프로젝트들이 진행되고 있다. 이들 파일럿은 각각 다른 수준의 자동화와 메타 학습 능력을 실험하며, 궁극적으로는 완전 자율 PKM 시스템으로의 진화 경로를 검증하고 있다. 각 파일럿에서 얻는 인사이트와 성과 데이터는 다음 단계 개발의 핵심 근거가 된다.

Prerequisite: Standard Evaluation Framework

Proper eval is requirement for improvement

Evaluation Levels Framework: "There are three levels of evaluation to consider: • Level 1: Unit Tests • Level 2: Model & Human Eval (this includes debugging) • Level 3: A/B testing" - Rigorous evaluation creates a flywheel for rapid iteration (Ingest/Articles/2025-02-07 Your AI Product Needs Evals)

Task-Specific Evaluation: "Don't rely on generic evaluation frameworks to measure the quality of your AI. Instead, create an evaluation system specific to your problem" - PKM workflows require specialized metrics beyond standard AI benchmarks (Ingest/Articles/2025-02-07 Your AI Product Needs Evals)

(exp) Evaluate Prompts and Workflows (EPW)

Advanced Pilot: Feedback-based Improvement

Improve specific prompt/workflow based on user feedback

Process

피드백 기반 개선 프로세스는 체계적인 3단계 접근법을 따른다. 먼저 사용자가 각 작업 결과에 대해 feedback 속성에 질적 피드백을 남기면, 이를 수집하여 패턴을 분석한다. 이때 단순한 만족도 평가를 넘어서 구체적인 문제점과 개선 방향을 포함하는 상세한 피드백을 중시한다.

두 번째 단계에서는 (exp) Evaluate Prompts and Workflows (EPW) 프레임워크를 실행하여 프롬프트 준수도와 사용자 피드백을 종합적으로 평가한다. 이 과정에서 정량적 성능 지표와 정성적 사용자 경험이 균형있게 고려된다.

마지막으로 EPW 분석 결과와 수동으로 식별된 이슈들을 종합하여 구체적인 개선안을 도출하고 적용한다. 이는 단발성 수정이 아닌 지속적인 개선 사이클의 한 부분으로 기능한다.

Example

2025-09-14 Eval for GDR Week Review - Claude Code
- Review Daily Roundups for 1 week
- Identify ways to reduce broken links
2025-09-14 CEA-Evaluation-Report for PLL

Experimental Pilot: Comparative Evaluation of Agents

이 파일럿은 다양한 AI 에이전트들의 출력 품질을 비교 평가하는 실험이다. 단순히 성능을 측정하는 것을 넘어, 특정 작업 부하에 가장 적합한 에이전트를 선택하는 것이 목표다. 더 나아가 각 에이전트의 강점을 활용한 멀티 에이전트 조합 전략도 탐구한다. 예를 들어, 검색 관련 작업은 Gemini에게 아웃소싱하고 복합적 분석은 Claude Code가 담당하는 식의 역할 분담이 가능하다.

Overview

비교 평가 대상은 현재 AI4PKM 환경에서 활용 중인 세 가지 핵심 에이전트들이다. Claude Code는 복잡한 코드베이스와 정교한 분석에 특화되어 있으며, Gemini CLI는 검색과 정보 수집 작업에서 강점을 보인다. Codex CLI는 빠른 처리 속도와 균형 잡힌 성능으로 일반적인 워크플로우에 적합하다. 이들 에이전트 각각의 고유한 특성을 이해하고 최적 활용 방안을 도출하는 것이 핵심이다.

Eval Criteria

Criteria	Description
Completeness	No input is unprocessed or partially processed
Output Format	No style issues (broken link or malformed docs)
Output Quality	Output meets user's intended goals[^1]
#### Process

비교 평가 프로세스는 공정성을 보장하는 표준화부터 시작한다. (exp) Standardize Agent Rules (SAR) 프레임워크를 통해 Claude Code, Gemini CLI, Codex CLI 등 각 에이전트가 동일한 조건과 규칙 하에서 작업하도록 환경을 통일한다. 이는 에이전트별 성능 차이가 고유한 능력에서 비롯된 것인지, 아니면 설정 차이 때문인지 명확히 구분하기 위함이다.

표준화된 환경에서 (exp) Evaluate Prompts and Workflows (EPW)를 실행하여 실제 성능을 측정한다. ai4pkm 도구를 활용해 다양한 에이전트를 동일한 워크플로우로 실행하고, 완성도, 출력 형식, 출력 품질 등 사전 정의된 기준에 따라 객관적으로 평가한다. 이를 통해 특정 작업 유형에 최적화된 에이전트를 식별하고, 멀티 에이전트 조합 전략을 수립할 수 있다.

Example

Real CEA Results: "Claude Code demonstrates superior capability for complex EIC workflows... Codex CLI shows excellent content quality when constraints removed... Gemini CLI requires significant troubleshooting before production use" - Actual evaluations reveal clear performance hierarchies (AI/Eval/2025-09-15 CEA Report - EIC Marimo Comparison)

Performance Reality Check: "Claude Code는 복잡한 코드베이스에서 72.5% SWE-bench 성능으로 최고의 정확도를 보이지만 높은 비용이 걸림돌이다. Codex는 빠른 개선으로 69.1% 성능을 달성하며 균형잡힌 선택지로 평가받는다" - Real performance varies significantly by task complexity (Ingest/Clippings/2025-09-07 CLI tool comparison)

Workflow Quality Insights: "CKU는 다중 작업 수행으로 각 작업에 집중도 감소 - EIC 단독 실행 시 전체 컨텍스트가 콘텐츠 개선에 집중" - Complex workflows can compromise individual task quality through context switching overhead (AI/Eval/2025-09-14 CEA Evaluation for EIC Clipping - Claude Code)

Advanced Integration:
- Builds on Projects/Super Work by Super Human/Part 1 Chapter 2 - 멀티 에이전트 시스템 orchestration principles - Incorporates AI/Research/2025-08-18 Enriching PKM in AI Era - Comprehensive Research Report by Claude Code research findings - Connects to (exp) Standardize Agent Rules (SAR) for consistent evaluation standards

Future Roadmap: Next Evolution Steps

현재 진행 중인 파일럿들이 검증하고 있는 개념들을 바탕으로, 향후 Self-Improving PKM의 발전 로드맵을 구체적인 단계별로 제시한다. 이 로드맵은 현실적 구현 가능성과 기술적 도전 과제를 모두 고려하여 수립되었으며, 각 단계는 이전 단계의 성과를 기반으로 점진적으로 고도화된다.

Phase 1: Enhanced Automation (Q1 2025)

첫 번째 단계에서는 현재 기반 시스템의 고도화에 집중한다. AI Opportunities for PKM (post-MCP) 프로젝트 완전 통합을 통해 모델 연결 프로토콜 기반의 새로운 AI 협업 패러다임을 도입한다. 동시에 AI/Research/2025-06-25 PKM Automation Strategy - N8N Knowledge Management 연구에서 제시된 고급 워크플로우들을 실제 운영 환경에 적용하여 자동화 수준을 한층 끌어올린다.

이 과정의 핵심은 PKM Metrics 추적 대시보드 구축이다. 이는 단순한 성능 모니터링을 넘어 시스템 개선의 기준점이 되는 종합적 메트릭 체계를 제공한다. 이러한 측정 체계가 구축되어야 다음 단계의 메타 에이전트 개발이 의미있는 데이터 기반으로 진행될 수 있다.

Phase 2: Meta-Agent Development (Q2 2025)

두 번째 단계는 진정한 의미의 자기 개선 시스템 구축이다. 자기 수정 프롬프트 기능을 통해 AI 시스템이 자신의 성능 데이터를 분석하여 프롬프트 지시사항을 스스로 재작성한다. 이는 인간의 개입 없이도 작업 품질이 지속적으로 향상되는 메커니즘을 제공한다.

자율 품질 보증 체계는 시스템 성능 저하를 자동으로 감지하고 해결하는 기능이다. 단순한 오류 발견을 넘어서 성능 저하의 근본 원인을 파악하고 최적화된 해결책을 실행하는 완전 자동화된 품질 관리 시스템이다.

예측적 개선 능력은 한 단계 더 나아가 문제가 발생하기 전에 이를 예상하고 예방하는 기능이다. 과거 패턴과 현재 상태를 분석하여 잠재적 이슈를 사전에 차단하고 최적화 기회를 선제적으로 포착한다. 이러한 예측 능력이 Self-Improving PKM의 진정한 자율성을 실현하는 핵심이다.

Phase 3: Collective Intelligence (Q3 2025)

세 번째 단계는 개별 시스템의 경계를 넘어선 집단 지능 시스템 구축이다. 네트워크 효과를 통해 여러 PKM 시스템들이 서로의 학습 결과를 공유하며 상호 개선한다. 한 시스템에서 발견된 효과적인 최적화 전략이 네트워크를 통해 다른 시스템들에게 전파되어 전체 생태계의 성능이 향상된다.

분산 최적화 메커니즘은 사용자 커뮤니티 전체에 걸친 개선 효과 공유를 실현한다. 개인의 PKM 사용 패턴과 성과 데이터가 익명화되어 집계되고, 이를 통해 도출된 인사이트가 모든 사용자에게 혜택으로 돌아간다. 이는 개인 정보를 보호하면서도 집단 지혜를 활용하는 균형잡힌 접근법이다.

출현 감지 능력은 시스템이 기존에 프로그래밍되지 않은 완전히 새로운 최적화 전략을 스스로 발견하는 것이다. 대량의 사용자 데이터와 성과 패턴을 분석하여 인간 설계자들이 미처 생각하지 못한 혁신적 개선 방안을 창출한다. 이는 AI 시스템이 단순한 도구를 넘어 창조적 파트너로 진화하는 지점이다.

Ultimate Vision: "최소 역할 철학: 장기적으로는 나는 점점 결과를 상의하는 정도로 롤에 머물 수 있을 것이다" - Humans evolve from PKM managers to strategic advisors in fully autonomous knowledge systems (Topics/Technology/PKM)